Recent studies have shown that using an external Language Model (LM) benefits the end-to-end Automatic Speech Recognition (ASR). However, predicting tokens that appear less frequently in the training set is still quite challenging. The long-tail prediction problems have been widely studied in many applications, but only been addressed by a few studies for ASR and LMs. In this paper, we propose a new memory augmented lookup dictionary based Transformer architecture for LM. The newly introduced lookup dictionary incorporates rich contextual information in training set, which is vital to correctly predict long-tail tokens. With intensive experiments on Chinese and English data sets, our proposed method is proved to outperform the baseline Transformer LM by a great margin on both word/character error rate and tail tokens error rate. This is achieved without impact on the decoding efficiency. Overall, we demonstrate the effectiveness of our proposed method in boosting the ASR decoding performance, especially for long-tail tokens.
translated by 谷歌翻译
Graph neural networks (GNNs) have received remarkable success in link prediction (GNNLP) tasks. Existing efforts first predefine the subgraph for the whole dataset and then apply GNNs to encode edge representations by leveraging the neighborhood structure induced by the fixed subgraph. The prominence of GNNLP methods significantly relies on the adhoc subgraph. Since node connectivity in real-world graphs is complex, one shared subgraph is limited for all edges. Thus, the choices of subgraphs should be personalized to different edges. However, performing personalized subgraph selection is nontrivial since the potential selection space grows exponentially to the scale of edges. Besides, the inference edges are not available during training in link prediction scenarios, so the selection process needs to be inductive. To bridge the gap, we introduce a Personalized Subgraph Selector (PS2) as a plug-and-play framework to automatically, personally, and inductively identify optimal subgraphs for different edges when performing GNNLP. PS2 is instantiated as a bi-level optimization problem that can be efficiently solved differently. Coupling GNNLP models with PS2, we suggest a brand-new angle towards GNNLP training: by first identifying the optimal subgraphs for edges; and then focusing on training the inference model by using the sampled subgraphs. Comprehensive experiments endorse the effectiveness of our proposed method across various GNNLP backbones (GCN, GraphSage, NGCF, LightGCN, and SEAL) and diverse benchmarks (Planetoid, OGB, and Recommendation datasets). Our code is publicly available at \url{https://github.com/qiaoyu-tan/PS2}
translated by 谷歌翻译
尖峰神经网络(SNNS)模仿大脑计算策略,并在时空信息处理中表现出很大的功能。作为人类感知的基本因素,视觉关注是指生物视觉系统中显着区域的动态选择过程。尽管视觉注意力的机制在计算机视觉上取得了巨大成功,但很少会引入SNN中。受到预测注意重新映射的实验观察的启发,我们在这里提出了一种新的时空通道拟合注意力(SCTFA)模块,该模块可以通过使用历史积累的空间通道信息来指导SNN有效地捕获潜在的目标区域。通过在三个事件流数据集(DVS手势,SL-Animals-DVS和MNIST-DVS)上进行系统评估,我们证明了带有SCTFA模块(SCTFA-SNN)的SNN不仅显着超过了基线SNN(BL-SNN)(BL-SNN)(BL-SNN)以及其他两个具有退化注意力模块的SNN模型,但也通过现有最新方法实现了竞争精度。此外,我们的详细分析表明,所提出的SCTFA-SNN模型对噪声和出色的稳定性具有强大的稳健性,同时保持了可接受的复杂性和效率。总体而言,这些发现表明,适当纳入大脑的认知机制可能会提供一种有希望的方法来提高SNN的能力。
translated by 谷歌翻译
在产生无形的后门攻击中毒数据期间,特征空间转换操作往往会导致一些中毒特征的丧失,并削弱了与触发器和目标标签之间的源图像之间的映射关系,从而导致需要更高的中毒率以实现相应的后门攻击成功率。为了解决上述问题,我们首次提出了功能修复的想法,并引入了盲水印技术,以修复在中毒数据中损失的中毒特征。在确保一致的标签的前提下,我们提出了基于功能维修的低毒速率看不见的后门攻击,名为FRIB。从上面的设计概念中受益,新方法增强了源图像与触发器和目标标签之间的映射关系,并增加了误导性DNN的程度,从而获得了高后门攻击成功率,中毒率非常低。最终,详细的实验结果表明,在所有MNIST,CIFAR10,GTSRB和Imagenet数据集中实现了高成功攻击成功率的高成功率的目标。
translated by 谷歌翻译
对于人工智能系统来说,在低计算成本的情况下实现准确的视频识别是一项挑战。基于自适应推理的有效视频识别方法通常会预览视频,并专注于显着零件以降低计算成本。大多数现有作品都集中在复杂的网络学习,并具有基于视频分类的目标。以所有框架为正样本,其中很少有人关注积极样本(显着框架)和负面样本(非空位框架)之间的歧视。为了填补这一空白,在本文中,我们提出了一个新型的非高度抑制网络(NSNET),该网络有效地抑制了非征力框架的响应。具体而言,在框架级别上,可以生成可以区分显着框架和非空位框架的有效伪标签,以指导框架显着性学习。在视频层面上,在双重视频级别的监督下都学会了一个时间关注模块,这些模块既是对突出表示和非偏心表示形式。从两个两个级别的显着度测量都合并以利用多粒性互补信息。在四个众所周知的基准上进行的广泛实验验证了我们的NSNET不仅实现了最先进的准确性效率折衷,而且比最先进的推理速度要快得多(2.4〜4.3倍) - 艺术方法。我们的项目页面位于https://lawrencexia2008.github.io/projects/nsnet。
translated by 谷歌翻译
由于复杂的注意机制和模型设计,大多数现有的视觉变压器(VIT)无法在现实的工业部署方案中的卷积神经网络(CNN)高效,例如张力和coreml。这提出了一个独特的挑战:可以设计视觉神经网络以与CNN一样快地推断并表现强大吗?最近的作品试图设计CNN-Transformer混合体系结构来解决这个问题,但是这些作品的整体性能远非令人满意。为了结束这些结束,我们提出了下一代视觉变压器,以在现实的工业场景中有效部署,即下一步,从延迟/准确性权衡的角度来看,它在CNN和VIT上占主导地位。在这项工作中,下一个卷积块(NCB)和下一个变压器块(NTB)分别开发出用于使用部署友好机制捕获本地和全球信息。然后,下一个混合策略(NHS)旨在将NCB和NTB堆叠在有效的混合范式中,从而提高了各种下游任务中的性能。广泛的实验表明,在各种视觉任务方面的延迟/准确性权衡方面,下一个VIT明显优于现有的CNN,VIT和CNN转换混合体系结构。在Tensorrt上,在可可检测上,Next-Vit超过5.4 MAP(从40.4到45.8),在类似延迟下,ADE20K细分的8.2%MIOU(从38.8%到47.0%)。同时,它可以与CSWIN达到可比的性能,而推理速度则以3.6倍的速度加速。在COREML上,在类似的延迟下,在COCO检测上,下一步超过了可可检测的4.6 MAP(从42.6到47.2),ADE20K分割的3.5%MIOU(从45.2%到48.7%)。代码将最近发布。
translated by 谷歌翻译
旨在找到合成靶分子的反应途径的循环合成计划在化学和药物发现中起着重要作用。此任务通常被建模为搜索问题。最近,数据驱动的方法吸引了许多研究兴趣,并显示了反递归计划的有希望的结果。我们观察到在搜索过程中多次访问了相同的中间分子,并且通常在先前基于树的方法(例如,或树搜索,蒙特卡洛树搜索)中独立处理。这样的裁员使搜索过程效率低下。我们提出了基于图的搜索策略,以消除任何中间分子的冗余探索。由于图形上的搜索比在树上更复杂,因此我们进一步采用图形神经网络来指导图形搜索。同时,我们的方法可以在图中搜索一批目标,并在基于树的搜索方法中删除目标间重复。两个数据集的实验结果证明了我们方法的有效性。尤其是在广泛使用的USPTO基准测试中,我们将搜索成功率提高到99.47%,以2.6分提高了先前的最新性能。
translated by 谷歌翻译
黑盒攻击通常面临两个问题:可转移性差和无法逃避对抗性防御。为了克服这些缺点,我们通过平滑良性图像中纹理的线性结构(称为advsmo)来创建一种原始方法来生成对抗示例。我们在不依赖目标模型的任何内部信息的情况下构建对抗性示例,并设计不可感知的高攻击成功率约束,以指导Gabor滤波器选择适当的角度和鳞片以使输入图像的线性纹理平滑以生成对抗性示例。从上面的设计概念中受益,Advsmo将产生具有强大可转移性和稳固性的对抗性例子。最后,与八种目标模型相比,与四种高级黑盒对抗攻击方法相比,结果表明,ADVSMO在CIFAR-10上将平均攻击成功率提高了9%,而小型Imimagenet数据集则将平均攻击成功率提高了16%。这些攻击方法中最好的。
translated by 谷歌翻译
对象检测器的大多数黑盒对抗攻击方案主要面临两个缺点:需要访问目标模型并生成效率低下的对抗示例(未能使对象大量消失)。为了克服这些缺点,我们提出了基于语义分割和模型反转(SSMI)的黑框对抗攻击方案。我们首先使用语义分割技术定位目标对象的位置。接下来,我们设计一个邻居背景像素更换,以用背景像素替换目标区域像素,以确保不容易通过人类视力检测到像素修饰。最后,我们重建一个可识别的示例,并使用蒙版矩阵在重建的示例中选择像素以修改良性图像以生成对抗性示例。详细的实验结果表明,SSMI可以产生有效的对抗例子,以逃避人眼的感知并使感兴趣的对象消失。更重要的是,SSMI的表现优于同样的攻击。新标签和消失的标签的最大增加为16%,对象检测的MAP指标的最大减少为36%。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译